优化大模型强化学习训练,上交大联合微软清北提出FlowRL,让AI推理更具泛化力 你给它一道题,它可能很快能找到一个能拿高分的解法。然后,它就会把这个解法焊在脑子里,以后碰到所有类似的题,翻来覆去就是这一招。这种现象,行话叫“模式崩溃”(mode collapse)。 模型 微软 推理 泛化 flowrl 2025-09-27 14:51 2